斉次ダイバージェンス
Takenouchi and Kanamori (2017) では, 正規化定数の評価が困難な離散分布のパラメータ推定法として,斉次ダイバージェンスの局所化に基づく方法を提案している.
\(\mathfrak{X}\) を離散集合として, \[
\begin{align*}
\mathcal{M}&:=\{f:\mathfrak{X}\to[0,\infty)\mid \ang{f}<\infty,f\neq0\},\\
\mathcal{P}&:=\{f\in\mathcal{M}\mid \ang{f}=1\}
\end{align*}
\]
とする.ただし,\(\ang{f}:=\sum_{x\in\mathfrak{X}}f(x)\) である(計数測度に関する積分).
Definition 4 (斉次ダイバージェンス) 非負関数 \(D:\mathcal{M}\times\mathcal{M}\to[0,\infty)\) が斉次ダイバージェンスであるとは,
- \(f\in\mathcal{M}\) に対し,\(D(f,f)=0\).
- \(f,g\in\mathcal{M}\) と任意の \(c>0\) に対し,\(D(f,g)=D(f,cg)\).
- \(D(f,g)=0\) ならば,ある \(c>0\) が存在し,\(f=cg\).
を満たすことである.
定義から,斉次ダイバージェンスに基づく推定は,正規化定数に依らない.
Proposition 5 (Hölder の不等式) \((S,\mathcal{A},\mu)\) は測度空間,\(f,g\) は \(S\) 上の \(\mathbb{C}\) 値可測関数とする.任意の \(1/p+1/q=1\) を満たす \(p,q\in[1,\infty]\) に対し, \[
\|fg\|_{1}\leq\|f\|_{p}\|g\|_{q}
\]
が成立.さらに,\(p,q\in(1,\infty),f\in L^{p}(\mu),g\in L^{q}(\mu)\) ならば,等号成立は \(|f|^{p}\) と \(|g|^{q}\) が \(L^{1}(\mu)\) 上で線形従属の場合に限る.すなわち,\(\alpha=\beta=0\) でないある \(\alpha,\beta\geq0\) が存在し,\(\alpha|f|^{p}=\beta|g|^{q}\) が \(\mu\)-a.e. で成立する場合に限る.
\(f,g\in\mathcal{M},\gamma>0\) に対し,\(p=1+\gamma,q=(1+\gamma)/\gamma\) として,\(f,g^{\gamma}\) に Hölder の不等式を使うと, \[
\ang{f^{1+\gamma}}^{\frac{1}{1+\gamma}}\ang{g^{1+\gamma}}^{\frac{\gamma}{1+\gamma}}\geq\ang{fg^{\gamma}}
\]
が得られる.等号成立は \(f\propto g\) に限る.この結果を用いて定義される斉次ダイバージェンスが擬球ダイバージェンス (psuedo-spherical divergence; PS divergence) である.
Definition 5 (擬球ダイバージェンス) \(\gamma>0\) に対し,擬球ダイバージェンス \(D_\gamma:\mathcal{M}\times\mathcal{M}\to[0,\infty)\) を \[
D_\gamma(f,g):=\frac{1}{1+\gamma}\log{\ang{f^{1+\gamma}}}+\frac{\gamma}{1+\gamma}\log{\ang{g^{1+\gamma}}}-\log{\ang{fg^{\gamma}}}
\]
で定義する.
擬球ダイバージェンスは \(\gamma\) ダイバージェンス としても知られている.
\(X_1,\dots,X_n\sim P\) とすると,経験分布 \(\mathbb{P}_{n}\) の密度 \(p_{n}(x)\) は \[
p_{n}(x)=\sum_{x\in\mathcal{Z}_{n}}\frac{n_{x}}{n}
\]
である.ただし,\(\mathcal{Z}_{n}:=\{x\in\mathfrak{X}\mid \exists{i}, X_{i}=x \},n_{x}=\sum_{i=1}^{n}1_{\{x\}}(X_i)\) である.
いま,密度 \[
q(x\mid\theta)=\frac{\tilde{q}_\theta(x)}{Z(\theta)},\quad
Z(\theta)=\ang{\tilde{q}_\theta(x)}
\]
をもつ分布 \(Q_{\theta}\) によって,\(P\) を推定することを考える.擬球ダイバージェンスによる経験推定を考えると,
\[
\begin{align*}
D_\gamma(p_{n},\tilde{q}_{\theta})
&=\frac{\gamma}{1+\gamma}\log{\ang{\tilde{q}_\theta^{1+\gamma}}}-\log{\ang{p_{n}\tilde{q}_{\theta}^{\gamma}}}+\text{Const}\\
&=\frac{\gamma}{1+\gamma}\log{\sum_{x\in\mathfrak{X}}\tilde{q}_\theta(x)^{1+\gamma}}-\log{\sum_{x\in\mathcal{Z}_{n}}\frac{n_{x}}{n}\tilde{q}_{\theta}(x)^{\gamma}}+\text{Const}
\end{align*}
\]
の最小化を考えることになる.第1項の評価が課題となる.Takenouchi and Kanamori (2017) は局所化によって,この課題を解決した.
Definition 6 (局所擬球ダイバージェンス) \(\alpha,\alpha'\in\mathbb{R}\) は相異なる実数とする.\(p\in\mathcal{P}\) に対し,\(\mathcal{Z}=\{x\in\mathfrak{X}\mid p(x)>0\}\) とする.\(q\in\mathcal{M}\) は \(\mathcal{Z}\) 上で正とする. \[
\begin{align*}
LD_{\alpha,\alpha',\gamma}(p,q)
&:=D_{\gamma}((p^{\alpha}q^{1-\alpha})^{\frac{1}{1+\gamma}}1_{\mathcal{Z}},(p^{\alpha'}q^{1-\alpha'})^{\frac{1}{1+\gamma}}1_{\mathcal{Z}})\\
&=\frac{1}{1+\gamma}\log\sum_{x\in\mathcal{Z}}p^{\alpha}q^{1-\alpha}
+\frac{\gamma}{1+\gamma}\log\sum_{x\in\mathcal{Z}}p^{\alpha'}q^{1-\alpha'}
-\log\sum_{x\in\mathcal{Z}}p^{\bar\alpha}q^{1-\bar\alpha}
\end{align*}
\]
を局所擬球ダイバージェンスという.ただし,\(\bar\alpha=(\alpha+\gamma\alpha')/(1+\gamma)\) である.
\(LD_{\alpha,\alpha',\gamma}(p,q)=0\) のとき,\(\mathcal{Z}\) 上で \(p^{\alpha}q^{1-\alpha}\propto p^{\alpha'}q^{1-\alpha'}\),すなわち \(\mathcal{Z}\) 上で \(p\propto q\) が成立する.
経験分布 \(p_n\) とモデル \(\tilde{q}_\theta\) の間の局所擬球ダイバージェンスを求めると, \[
\begin{align*}
&LD_{\alpha,\alpha',\gamma}(p,\tilde{q}_{\theta})\\
&=\frac{1}{1+\gamma}\log\sum_{x\in\mathcal{Z}_{n}}\left(\frac{n_{x}}{n}\right)^{\alpha}\tilde{q}_{\theta}^{1-\alpha}
+\frac{\gamma}{1+\gamma}\log\sum_{x\in\mathcal{Z}_{n}}\left(\frac{n_{x}}{n}\right)^{\alpha'}\tilde{q}_{\theta}^{1-\alpha'}
-\log\sum_{x\in\mathcal{Z}_{n}}\left(\frac{n_{x}}{n}\right)^{\bar\alpha}\tilde{q}_{\theta}^{1-\bar\alpha}
\end{align*}
\]
どの項の和も最大 \(n\) 回で済むようになった.
Theorem 1 (Takenouchi and Kanamori (2017) Theorem 4) 任意の \(p\in\mathcal{P}\) と指数型分布族のモデル \(\tilde{q}_{\bm\theta}(x)=\exp(\bm{\theta}^\top\bm{t}(x))\) に対し,\(\bar\alpha=1\) ならば,\(LD_{\alpha,\alpha',\gamma}(p,\tilde{q}_{\bm\theta})\) は \(\bm\theta\) に関して凸関数.
\(\bar\alpha=1\) となるように \(\gamma\) を選ぶと,
\[
LD_{\alpha,\alpha',\gamma}(p,q)
=\frac{1-\alpha'}{\alpha-\alpha'}\log\sum_{x\in\mathcal{Z}}p^{\alpha}q^{1-\alpha}
+\frac{\alpha-1}{\alpha-\alpha'}\log\sum_{x\in\mathcal{Z}}p^{\alpha'}q^{1-\alpha'}
\]
となる.
局所擬球ダイバージェンスに基づく推定量は有効推定量になる.これは,\(\alpha\) ダイバージェンスと深く関係しているようだ,時間が足りずまとめられなかった.
Takenouchi and Kanamori (2017) では,最尤推定量との関係に注目して \((\alpha,\alpha')\approx(1,0)\) の場合について,数値実験で詳しく調べている.モデル \(\tilde{q}_\theta(x)=\exp(\psi_\theta(x))\) を考える. 擬球ダイバージェンスに基づく推定量は \(\nabla_\theta LD_{\alpha,\alpha',\gamma}(p,\tilde{q}_\theta)=0\),すなわち
\[
\frac{\sum_{x\in\mathcal{Z}_{n}}(n_{x}/n)^{\alpha}\tilde{q}_\theta(x)^{1-\alpha}\nabla_\theta\psi_\theta(x)}{\sum_{x\in\mathcal{Z}_{n}}(n_{x}/n)^{\alpha}\tilde{q}_\theta(x)^{1-\alpha}}
-
\frac{\sum_{x\in\mathcal{Z}_{n}}(n_{x}/n)^{\alpha'}\tilde{q}_\theta(x)^{1-\alpha'}\nabla_\theta\psi_\theta(x)}{\sum_{x\in\mathcal{Z}_{n}}(n_{x}/n)^{\alpha'}\tilde{q}_\theta(x)^{1-\alpha'}}=0
\]
を満たす.\((\alpha,\alpha')=(1,0)\) を代入すると, \[
\sum_{x\in\mathcal{Z}_n}\frac{n_{x}}{n}\nabla_\theta\psi_\theta(x)-
\frac{\sum_{x\in\mathcal{Z}_n}\tilde{q}_\theta(x)\nabla_\theta\psi_\theta(x)}{\sum_{x\in\mathcal{Z}_n}\tilde{q}_\theta(x)}=0
\]
となる.尤度方程式は \[
\sum_{x\in\mathcal{Z}_n}\frac{n_{x}}{n}\nabla_\theta\psi_\theta(x)-
\frac{\sum_{x\in\mathcal{X}}\tilde{q}_\theta(x)\nabla_\theta\psi_\theta(x)}{\sum_{x\in\mathcal{X}}\tilde{q}_\theta(x)}=0
\] となる.
スコアリングルールとしての特徴づけ
Parry, Dawid, and Lauritzen (2012) は \(\mathfrak{X}=(a,b)\) における,正規化定数に依らないパラメータの推定の特徴づけを行った.
Definition 7 (スコアリングルール) 可測空間 \((\mathfrak{X},\mathscr{A})\) 上の確率測度の集合を \(\mathcal{P}\) とする.スコアリングルール \(S:\mathfrak{X}\times\mathcal{P}\to\mathbb{R}\) とは,任意の \(P\in\mathcal{P}\) に対し,\(S(\,\cdot\,,P):\mathfrak{X}\to\mathbb{R}\) が可測となる関数である.
Definition 8 (proper) スコアリングルール \(S\) が proper であるとは,任意の \(P\in\mathcal{P}\) に対し, \[
S(P,P)\leq S(P,Q)\quad \forall{Q}\in\mathcal{P}
\] が成立することである. ただし,\(S:\mathcal{P}\times\mathcal{P}\to\mathbb{R}\) は, \[
S(P,Q):=\int_{\mathfrak{X}}S(x,Q)\d{P}(x)
\] で定義される.特に,等号成立が \(P=Q\) に限る場合,\(S\) は strictly proper であるという.
Definition 9 (局所性) \(\mathfrak{X}\) 上の測度 \(\mu\) に対し,\(\mathcal{P}=\{P\mid p:=\d{P}/\d{\mu} \in C^{m}(\mathfrak{X}),p>0\}\) とする. スコアリングルール \(S\) が(非負整数 \(m\) に関して) \(m\) 次局所的 (\(m\)-local) であるとは,\(s\in C^{\infty}(\mathfrak{X}\times(0,\infty)\times\mathbb{R}^{m})\) が存在し, \[
S(x,Q)=s(x,q(x),q'(x),\dots,q^{(m)}(x))
\] と表せることである.ただし,\(q\) は \(Q\) の密度.
proper なスコアリングルールによって,エントロピー \(H(P):=S(P,P)\) とダイバージェンス \(D(P,Q):=S(P,Q)-H(P)\) が定義される.
Definition 10 (斉次性) \(m\) 次局所的なスコアリングルール \(S\) が(\(h\in\mathbb{Z}\) に関して) \(h\) 次斉次的 (\(h\)-homogeneous) であるとは,任意の \(x\in\mathfrak{X}\) に対し \(s(x,\,\cdot\,):(0,\infty)\times\mathbb{R}^{m}\to\mathbb{R}\) が \(h\) 次斉次的であること,すなわち, \[
s(x,\lambda y_{0},\lambda y_{1},\dots,\lambda y_{m})=\lambda^{h}s(x,y_{0},y_{1},\dots,y_{m})
\] が任意の \(\lambda>0\) と \((x,y_{0},y_{1},\dots,y_{m})\in\mathfrak{X}\times(0,\infty)\times\mathbb{R}^{m}\) に対して成立することである.
斉次的なスコアリングルールに基づく統計的推測は,モデルの正規化定数に依らない.
Example 15 (対数スコア) \(S(x,Q):=\log{q}(x)\) とすると,\(H(P)=\int_{\mathfrak{X}}p(x)\log{p}(x)\d{x}\) は Shannon エントロピー.\(D(P,Q)=\int_{\mathfrak{X}}p(x)\log\frac{p(x)}{q(x)}\d{x}\) は Kullback-Leibler ダイバージェンス.対数スコアは1次局所的で,strictly proper なスコアリングルール.
Example 16 (Hyvärinen スコア) Hyvärinen スコアは \[
S(x,Q):=2\frac{q''(x)}{q(x)}-\left(\frac{q'(x)}{q(x)}\right)^{2}
\] とかける.Hyvärinen スコアは2次局所的,0次斉次的なスコアリングルール.
proper なスコアリングルールの特徴づけのために,いくつかの微分作用素を定義する.
Definition 11 \(f(x,y_0,y_1,\dots,y_m)\in C^\infty(\mathfrak{X}\times(0,\infty)\times\mathbb{R}^m)\) に対し, \[
\begin{align*}
Df&:=\pd{f}{x}+\sum_{j=0}^{m}y_{j+1}\pd{f}{y_{j}},\\
\Lambda f&:=\sum_{j=0}^{m}(-1)^{j}D^{j}\left[\pd{f}{y_{j}}\right],\\
Ef&:=\sum_{j=0}^{m}y_{j}\pd{f}{y_j}
\end{align*}
\]
と定義する.
\(h\) 次斉次的な \(\phi\in C^\infty(\mathfrak{X}\times(0,\infty)\times\mathbb{R}^d)\) 全体を \(\mathcal{F}_{m}^{h}\) として,\(\mathcal{F}^{h}:=\bigcup_{m=0}^{\infty}\mathcal{F}_{m}^{h}\) とする.\(\mathcal{F}^{h}\) は線形空間.このとき,\(\Lambda\) は \(\mathcal{F}^{1}\) から \(\mathcal{F}^{0}\) への線形写像になっていることが,Lemma 1 と Lemma 2 から従う.
Lemma 1 と Lemma 2
Lemma 1 \(f\in\mathcal{F}_{m}^{h}\) とする. \[
\begin{align*}
&\frac{\partial{f}}{\partial{x}}\in \mathcal{F}_{m}^{h}
&\frac{\partial{f}}{\partial{y_{j}}}\in \mathcal{F}_{m}^{h-1},\quad j=0,\dots,m
\end{align*}
\]
Proof. 任意の \((x,y_{0},y_{1},\dots,y_{m})\in\mathfrak{X}\times(0,\infty)\times\mathbb{R}^{m}\) に対し,\(g(x,y_{0},y_{1},\dots,y_{m})=f(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_{m})\) とすると, \[
\begin{align*}
&\hphantom{\iff}\frac{\partial{g}}{\partial{y}_{j}}(x,{y}_{0},{y}_{1},\dots,{y}_{m})=\frac{\partial{(\lambda^{h} f)}}{\partial{y}_{j}}(x,{y}_{0},{y}_{1},\dots,{y}_{m})\\
&\iff
\lambda\frac{\partial{f}}{\partial{y}_{j}}(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_{m})=\lambda^{h}\frac{\partial{f}}{\partial{y}_{j}}(x,{y}_{0},{y}_{1},\dots,{y}_{m})
\end{align*}
\] が成立.よって,\(\partial{f}/\partial{y}_{j}\) は \(h-1\) 次斉次的.また, \[
\begin{align*}
&\hphantom{\iff}\frac{\partial{g}}{\partial{x}}(x,{y}_{0},{y}_{1},\dots,{y}_{m})=\frac{\partial{(\lambda^{h} f)}}{\partial{x}}(x,{y}_{0},{y}_{1},\dots,{y}_{m})\\
&\iff
\frac{\partial{f}}{\partial{x}}(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_{m})=\lambda^{h}\frac{\partial{f}}{\partial{x}}(x,{y}_{0},{y}_{1},\dots,{y}_{m})
\end{align*}
\] より,\(\partial{f}/{\partial{x}}\) は \(h\) 次斉次的.
Lemma 2 \(f\in \mathcal{F}_{m}^{h}\) とする. \[
Df\in \mathcal{F}_{m+1}^{h},\quad j=1,\dots,d.
\]
Proof. 任意の \((x,y_{0},y_{1},\dots,y_{m+1})\in\mathfrak{X}\times(0,\infty)\times\mathbb{R}^{m+1}\) に対し,Lemma 1 より, \[
\begin{align*}
Df(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_{m+1})
&=\frac{\partial{f}}{\partial{x}}(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_m)+\sum\limits_{j=1}^{m}\lambda{y}_{j+1}\frac{\partial{f}}{\partial{y}_{j}}(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_m)\\
&=\lambda^{h}\frac{\partial{f}}{\partial{x}}(x,y_{0},y_{1},\dots,y_{m})+\lambda^{h}\sum\limits_{j=1}^{m}{y}_{j+1}\frac{\partial{f}}{\partial{y}_{j}}(x,y_{0},y_{1},\dots,y_{m})\\
&=\lambda^{h}Df(x,y_{0},y_{1},\dots,y_{m+1})
\end{align*}
\] が成立.
Theorem 2 (Euler の斉次関数定理) \[
f\in\mathcal{F}_{m}^{h}\iff
Ef=hf.
\]
証明
Proof. 任意の \((x,y_{0},y_{1},\dots,y_{m})\in\mathfrak{X}\times(0,\infty)\times\mathbb{R}^{m}\) に対し,\(g:(0,\infty)\to\mathbb{R}\) を \(g(\lambda)=f(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_{m})-\lambda^{h}f(x,y_{0},y_{1},\dots,y_{m})\) で定める. \((\Rightarrow)\) 仮定より \(g=0\) で,特に \(g'=0\) である.
\((1)\enspace h=0\) の場合
\[
\begin{align*}
g'(\lambda)
&=\sum\limits_{j=0}^{m}y_{j}\frac{\partial{f}}{\partial{y_{j}}}(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_{m})=0
\end{align*}
\] である.\(0=g'(1)=Ef(x,y_{0},y_{1},\dots,y_{m})\) が成立.
\((2)\enspace h\neq0\) の場合
\[
\begin{align*}
g'(\lambda)
&=\sum\limits_{j=0}^{m}y_{j}\frac{\partial{f}}{\partial{y_{j}}}(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_{m})-h\lambda^{h-1}f(x,y_{0},y_{1},\dots,y_{m})=0
\end{align*}
\] である.\(0=g'(1)=Ef(x,y_{0},y_{1},\dots,y_{m})-hf(x,y_{0},y_{1},\dots,y_{m})\) が成立. \((\Leftarrow)\) 仮定より,\(\lambda{g}'(\lambda)=Ef(x,\lambda{y}_{0},\lambda{y}_{1},\dots,\lambda{y}_{m})-h\lambda^{h}{f}(x,y_{0},y_{1},\dots,y_{m})=hg(\lambda)\) が成立.
\((1)\enspace h=0\) の場合
\(\lambda g'(\lambda)=0\) より,\(g\) は定数.\(g(1)=0\) なので,\(g=0\) である.
\((2)\enspace h\neq0\) の場合
微分方程式 \(\lambda g'(\lambda)- hg(\lambda)=0\) を条件 \(g(1)=0\) の下で解く. \[
\begin{align*}
&\hphantom{\iff}\frac{g'(\lambda)}{g(\lambda)}= \frac{h}{\lambda}\\
&\iff \int \frac{g'(\lambda)}{g(\lambda)}\,d\lambda=\int \frac{h}{\lambda}\,d\lambda+\text{Const}\\
&\iff \int \frac{g'(\lambda)}{g(\lambda)}\,d\lambda=\int \frac{h}{\lambda}\,d\lambda+\text{Const}\\
&\iff \int \frac{1}{g}\,dg=h\log{\lambda}+\text{Const}\\
&\iff \log{|g(\lambda)|}=\log{\lambda}^{h}+\text{Const}\\
&\iff g(\lambda)=\lambda^{h}\times\text{Const}
\end{align*}
\] \(g(1)=\text{Const}=0\) より,\(\text{Const}=0\) である.よって,\(g=0\) が成立.
\(D\) は \(\dd{S(x,Q)}{x}\) を考えるときに現れる.\(S\) は \(m\) 次局所的とすると,微分の連鎖率より, \[
\begin{align*}
\dd{S(x,Q)}{x}
&=\pd{S(x,Q)}{x}+q'(x)\pd{S(x,Q)}{y_0}+\dots+q^{(m+1)}\pd{S(x,Q)}{y_m}\\
&=D[s](x,q(x),q'(x),\dots,q^{(m+1)}(x)).
\end{align*}
\]
\(\Lambda\) は汎関数 \(J(u)=\int_{a}^{b}F(x,u(x),\dots,u^{m}(x))\d{x}\) の最小化を変分法で解いたときに現れる Euler-Lagrange 方程式 \[
\pd{F}{u}-\dd{}{x}\pd{F}{u'}+\dots+(-1)^{m}\dd[m]{}{x}\dd{F}{u^{(m)}}
=0
\]
を \(\Lambda F=0\) で表現する.\(\Lambda\) が proper なスコアリングルールの特徴づけに関係する理由は,(直感的には)\(S(P,Q)\) の変分が \(P=Q\) で \(0\) になることが,proper なスコアリングルールの必要条件になるから.
\(E\) は \(\mathcal{F}^{h}\) から \(\mathcal{F}^{h}\) への線形写像になっていることが,Lemma 1 から従う.また,Theorem 2 より,\(\mathcal{F}_{m}^{h}\) は \(E\) の固有値 \(h\) に関する固有空間である.
Theorem 3 (proper なスコアリングルールの生成) \((y_0,y_1,\dots,y_m)\mapsto\phi(x,y_0,y_1,\dots,y_m)\) が 各 \(x\in\mathfrak{X}\) で凹関数になるような,\(\phi\in\mathcal{F}^{1}\) に対し,\(s:=\Lambda\phi\) とすると,\(S\) はある \(\mathcal{P}\) に関して proper.
証明
Proof. \[
g_{j}(x):=\pd{\phi}{y_j}(x,q(x),q'(x),\dots,q^{(m)}(x))
\]
とする.このとき,
\[
\begin{align*}
S(x,Q)
&=\Lambda\phi(x,q(x),q'(x),\dots,q^{(m)}(x))\\
&=\sum\limits_{j=0}^{m}(-1)^{j}D^{j}\left[\frac{\partial\phi}{\partial{y}_{j}}\right](x,q(x),q'(x),\dots,q^{(m+j)}(x))\\
&=\sum\limits_{j=0}^{m}(-1)^{j}g_{j}^{(j)}(x)
\end{align*}
\]
と表せる.部分積分の公式から, \[
\begin{align*}
S(P,Q)
&=\int_{a}^{b}p(x)S(x,Q)\d{x}\\
&=\sum\limits_{j=0}^{m}(-1)^{j}\int_{a}^{b}p(x)g_{j}^{(j)}(x)\d{x}\\
&=\sum\limits_{j=0}^{m}\int_{a}^{b}p^{(j)}(x)g_{j}(x)\d{x}
+\sum\limits_{j=1}^{m}(-1)^{j}\sum\limits_{l=0}^{j-1}(-1)^{l}\left[p^{(l)}(x)g_{j}^{(j-l-1)}(x)\right]_{a}^{b}
\end{align*}
\] が得られる.
\(f,g\in C^{n}(\mathfrak{X})\) とする.このとき,\((fg^{(n-1)})'=f'g^{(n-1)}+fg^{(n)}\) である. また,\((f'g^{(n-2)})'=f''g^{(n-2)}+f'g^{(n-1)}\) より, \[
(fg^{(n-1)})'=(f'g^{(n-2)})'-f''g^{(n-2)}+fg^{(n)}
\] が成立.これを繰り返して, \[
fg^{(n)}+(-1)^{n}f^{(n)}g=\sum\limits_{j=0}^{n-1}(-1)^{j}(f^{(j)}g^{(n-j-1)})'
\] が得られる.よって, \[
\int_{a}^{b} f(x)g^{(n)}(x)\d{x}+(-1)^{n}\int_{a}^{b} f^{(n)}(x)g(x)\d{x}
=\sum_{j=0}^{n}(-1)^{j}\left[f^{j}(x)g^{n-j-1}(x)\right]_{a}^{b}
\]
\[
S_{0}^{\phi}(P,Q):=\sum\limits_{j=0}^{m}\int_{a}^{b}p^{(j)}(x)g_{j}(x)\d{x}
\] として,\(S_{B}^{\phi}(P,Q):=S(P,Q)-S_{0}^{\phi}(P,Q)\) とする.Theorem 2 より, \[
\begin{align*}
S_{0}^{\phi}(P,P)
&=\sum\limits_{j=0}^{m}\int_{a}^{b}p^{(j)}(x)\frac{\partial\phi}{\partial{y}_{j}}(x,p(x),p'(x),\dots,p^{(m)}(x))\d{x}\\
&=\int_{a}^{b}(E\phi)(x,p(x),p'(x),\dots,p^{(m)}(x))\d{x}\\
&=\int_{a}^{b}\phi(x,p(x),p'(x),\dots,p^{(m)}(x))\d{x}\\
\end{align*}
\] が成り立ち, \[
\begin{align*}
D_{0}^{\phi}(P,Q)
&:=S_{0}^{\phi}(P,Q)-S_{0}^{\phi}(P,P)\\
&=\int_{a}^{b}\sum\limits_{j=0}^{m}\left(p^{(j)}(x)-q^{(j)}(x)\right)\frac{\partial\phi}{\partial{y}_{j}}(x,q(x),q'(x),\dots,q^{(m)}(x))\d{x}\\
&\hphantom{=}-\int_{a}^{b}\left(\phi(x,p(x),p'(x),\dots,p^{(m)}(x))-\phi(x,q(x),q'(x),\dots,q^{(m)}(x))\right)\d{x}
\end{align*}
\] となる.\(\bm{y}'=(p(x),p'(x),\dots,p^{(m)}(x))^{\top},\bm{y}=(q(x),q'(x),\dots,q^{(m)}(x))^{\top}\) とおくと,\(D_{0}^{\phi}\) の被積分関数は \[
(\bm{y}'-\bm{y})^{\top}\nabla_{\bm{y}}\phi(x,\bm{y})-(\phi(x,\bm{y}')-\phi(x,\bm{y}))
\] とかける.\(\phi\) は凹関数なので,これは非負.よって,境界項 \(S_{B}^{\phi}(P,Q)-S_{B}^{\phi}(P,P)\) が常に消えるような \(\mathcal{P}\) においては,\(D_{0}^{\phi}\) はダイバージェンス,すなわち \(S(x,Q)\) は proper である.
Example 17 (一般化 Hyvärinen スコアの生成) \(\phi(x,y_0,y_1)=-w(x)y_1^2/y_0\) は一般化 Hyvärinen スコアを生成する.
導出
\[
\begin{align*}
\Lambda\phi
&=\pd{\phi}{y_0}-D\left[\pd{\phi}{y_1}\right]
\\
&=\pd{\phi}{y_0}-\frac{\partial^{2}\phi}{\partial{x}\partial{y_{1}}}-y_{1}\frac{\partial^{2}\phi}{\partial{y_{0}}\partial{y_{1}}}-y_{2}\pd[2]{\phi}{y_{1}}\\
&=w(x)\frac{y_{1}^{2}}{y_{0}^{2}}+w'(x)\frac{2y_{1}}{y_{0}}-y_{1}w(x)\frac{2y_{1}}{y_{0}^{2}}-y_{2}w(x)\frac{-2}{y_{0}}\\
&=w(x)\left(\frac{2y_{2}}{y_{0}}-\frac{y_{1}^{2}}{y_{0}^{2}}\right)+2w'(x)\frac{y_{1}}{y_{0}}
\end{align*}
\]
である.1次元の一般化 Hyvärinen スコアは
\[
\begin{align*}
&\left(w(x)^{1/2}\dd{\log{q}(x)}{x}\right)^{2}+2\dd{}{x}\left(w(x)\dd{\log{q}(x)}{x}\right)\\
&=w(x)\frac{q'(x)^{2}}{q(x)^{2}}+2w(x)\dd[2]{\log{q}(x)}{x}+2w'(x)\frac{q'(x)}{q(x)}\\
&=w(x)\frac{q'(x)^{2}}{q(x)^{2}}+2w(x)\left(\frac{q''(x)}{q(x)}-\frac{q'(x)^{2}}{q(x)^{2}}\right)+2w'(x)\frac{q'(x)}{q(x)}\\
&=w(x)\left(\frac{q'(x)^{2}}{q(x)^{2}}-2\frac{q''(x)}{q(x)}\right)+2w'(x)\frac{q'(x)}{q(x)}
\end{align*}
\]
となり,一致することがわかる.
次に,一般化 Fisherダイバージェンス を導出する.
\[
\pd{\phi}{y_0}=w(x)\frac{y_1^2}{y_0^2},
\pd{\phi}{y_1}=-w(x)\frac{2y_1}{y_0}
\]
である. \[
\begin{align*}
S(P,Q)
&=\sum\limits_{j=0}^{1}\int_{a}^{b}p^{(j)}(x)g_{j}(x)\,dx+\sum\limits_{j=1}^{1}(-1)^{j}\sum\limits_{l=0}^{j-1}(-1)^{l}\left[p^{(l)}(x)g_{j}^{(j-l-1)}(x)\right]_{a}^{b}\\
&=\int_{a}^{b}\left(p(x)g_{0}(x)+p'(x)g_{1}(x)\right)\,dx
+\Big[-p(x)g_{1}(x)\Big]_{a}^{b}\\
&=\int_{a}^{b}w(x)\left(p(x)\frac{q'(x)^{2}}{q(x)^{2}}+p'(x)\frac{-2q'(x)}{q(x)}\right)\,dx
+\left[-p(x)w(x)\frac{-2q'(x)}{q(x)}\right]_{a}^{b}\\
&=\int_{a}^{b}w(x)\left(p(x)\frac{q'(x)^{2}}{q(x)^{2}}-2p'(x)\frac{q'(x)}{q(x)}\right)\,dx
+\left[2w(x)p(x)\frac{q'(x)}{q(x)}\right]_{a}^{b}\\\\
S(P,P)
&=\int_{a}^{b}w(x)\left(-\frac{p'(x)^{2}}{p(x)}\right)\,dx+\Big[2w(x)p'(x)\Big]_{a}^{b}
\\\\
S(P,Q)-S(P,P)
&=\int_{a}^{b}p(x)w(x)\left(\frac{p'(x)}{p(x)}-\frac{q'(x)}{q(x)}\right)^{2}\,dx
+\left[w(x)\left(2p(x)\frac{q'(x)}{q(x)}-2p'(x)\right)\right]_{a}^{b}
\end{align*}
\]